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摘要 


本 文 评估 了 现 有 的 机 器 翻译 算法 ， 并 针对 其 存在 的 不 足 提 出 了 “英文 文本 机 器 简化 ”方案 . 我 


们 通过 对 美国 当代 英语 语料库 (COCA) 词 频数 据 的 分 析 得 出 了 “基本 英语 ”词汇 数目 与 文本 


履 盖 率 之 间 的 关系 ， 并 以 此 为 基础 确定 了 “基本 英语 ”词汇 的 范围 . 我 们 综合 运用 语言 学 和 数 


pu 


学 知识 ， 明 确 了 用 “基本 英语 ”简化 正常 英文 文本 的 原则 ， 利 用 完善 后 的 n-gram 模型 解决 语 


义 识别 问题 ， 并 给 出 了 初步 的 算法 . 此 外 ， 本 文 还 以 众多 例证 对 机 器 翻译 涉及 的 问题 进行 了 


关键 词 


上 
WY 


计算 语言 学 ”机 器 翻译 “基本 英语 ” n-gram 模型 ”语料库 语义 识别 (词汇 差异 处 理 


Abstract 


This paper evaluates several existing methods of Machine Translation (MT), and, having 
addressed their shortcomings, proposes the idea of Machine Simplification of English Text. We 
established the relationship between the number of words in "Fundamental English" and its 
coverage of normal English text based on our analysis of word frequency data from the Corpus of 
Contemporary American English (COCA), and thus determined the range of "Fundamental 
English" vocabulary. Applying linguistic and mathematical knowledge, we laid down the 
principles of simplifying normal English words with “Fundamental English," utilized a refined 
version of n-gram model to solve problems concerning semantic identification (word sense 
disambiguation), and provided a basic algorithm. In addition, this paper includes a concise and 


richly exemplified introduction to various issues relating to MT. 


KEY WORDS 
computational linguistics, machine translation (MT), “Fundamental English", n-gram model, 


corpus, semantic identification (word sense disambiguation) 
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互联 网 技术 的 发 展 使 得 信息 的 广泛 传播 成 为 可 能 ,但 目前 全 世界 绝 大 多 数 网 页 均 以 英文 


写成 ,一定 程度 上 阻碍 了 非 英 语 国家 互联 网 用 户 获 取 多 元 资讯 . 机 器 翻译 可 以 以 低 成 本 、 高 


效率 的 方式 减少 语言 壁垒 ,促进 信息 在 全 球 范围 的 自由 流通 . 然而 ， 目 前 基于 统计 的 机 器 翻 


译 算法 尚 不 能 很 好 地 处 理 部 分 原始 语言 和 目标 语言 间 的 形态 句法 差异 , 致使 翻译 结果 不 流畅 


甚至 不 正确 ， 无 法 令 用 户 满意 . 另 一 方面 ， 英 语 教育 已 在 全 球 普及 ， 对 于 非 英语 国家 的 互联 


网 使 用 者 (主要 是 接受 过 中 学 教育 的 青年 ) ， 英 语句 法 并 不 复杂 . 但 英语 词汇 数量 庞大 ， 艰 


深 的 词汇 是 非 英 语 国 家 互联 网 使 用 者 理解 英文 文本 的 主要 障碍 . 而 目前 的 机 器 翻译 算法 可 


以 较 好 地 实现 以 词 为 单位 的 跨 语 言 转化 . 综合 考虑 这 些 因 素 , 我 们 提出 了 一 种 全 新 的 机 器 翻 


译 模式 一 一 “英文 文本 机 器 简化 "， 即 将 正常 的 英文 文本 〈 源 语言 ) 中 较为 困难 的 单词 蔡 换 成 


语义 相同 的 “基本 英语 ”单词 ， 并 输出 简化 后 的 文本 《目标 语言 ) . 


2 机 器 翻译 面临 的 问题 及 其 发 展 历程 


2.1 机 器 翻译 面临 的 问题 


机 器 翻译 ， 指 利用 计算 机 软件 将 一 种 自然 语言 声音 或 文本 转换 为 另 一 种 自然 语言 . 本 文 


! 的 机 器 翻译 特 指 文本 处 理 . 从 理论 语言 学 的 角度 看 ， 书 面 语言 间 的 差异 主要 由 形态 、 句 法 


和 词汇 语义 三 方面 的 差别 导致 . 各 语言 词汇 形态 复杂 程度 不 同 , 有 的 语言 词汇 中 包含 丰富 的 


词缀 作为 语素 (综合 性 强 ) ， 也 有 的 语言 不 包含 这 样 的 词 级 (综合 性 弱 ) ， 但 计算 机 程序 可 


以 将 词 级 、 词 根 和 (独立 的 ) 单词 视 作 相同 的 词汇 单位 ， 所 以 形态 综合 程度 的 差别 对 机 器 翻 


n 


译 的 影响 较 小 . 因此 ， 机 器 翻译 主要 面临 句法 语序) 和 语义 〈 词 汇 ) 上 的 问题 . 


语序 差异 是 指 源 语言 和 目标 语言 在 词汇 


单位 顺序 上 的 不 同 . 机 器 翻译 时 ,程序 不 仅 要 在 


内 建 词典 中 寻找 所 涉及 的 词汇 单位 ， 同 时 还 要 决定 输出 的 目标 语言 中 这 些 词汇 单位 的 顺序 . 


词汇 差异 是 指 有 时 源 语言 中 茶 一 词汇 单位 可 能 具有 多 种 语义 ,而 这 些 语义 在 目标 语言 中 


由 不 同 词汇 单位 表示 ， 因 而 源 语言 到 目标 语言 的 映射 无 法 形成 单 值 对 应 . 机 器 翻译 时 ,程序 


必须 判断 目标 语言 中 何 种 义 项 可 以 与 源 语 言 的 词汇 单位 匹配 . 


22 基于 语言 学 的 机 器 翻译 算法 及 其 评估 


科学 家 对 机 器 翻译 的 有 效 尝试 始 于 20 世纪 中 期 . 1954 年 ， 乔 治 城 大 学 研究 者 和 IBM A 


司 联合 主导 了 俄 - 英 机 器 翻译 实验 (Georgetown-IBM 实验 ) ， 测 试 了 60 多 个 俄语 语句 ， 大 


部 分 与 化 学 工业 有 关 ， 但 也 包含 了 一 些 大 众 化 的 内 容 . 例 1 是 Georgetown-IBM 实验 中 输入 


的 一 个 俄语 语句 、 其 每 个 单词 的 语义 和 IBM 701 计算 机 给 出 的 机 器 翻译 结果 : 


例 1 
Vyelyichyina ugla opryedyelyayetsya otnoshyenyiyem dlyini dugyi k radyiusu. 


size/value ofangle is determined by relation oflength ofarc to radius 
Magnitude of angle is determined by the relation of length of arc to radius. 


' 角 的 大 小 由 其 弧 长 与 半径 的 关系 决定 .， 


D 


A FP] 1 说 明 Georgetown-IBM 实验 实现 句法 差异 处 理 和 词汇 差异 处 理 的 算法 . 例 1 


! 的 俄语 单词 ugla 包含 2 个 词汇 单位 ， 词 根 ugl CA, EAEE REA angle) 和 属 格 后 


缀 -a《〈 在 内 建 词典 中 译 为 of) ， 语 序 不 同 ， 体 现 了 句法 差异 ; 例 1 中 俄语 词根 ugl 既 可 以 表 


示 ' 角 ”在 内 建 词典 中 译 为 angle》〉， 也 可 以 表示 ' 煤 跨 '( 在 内 建 词典 中 译 为 coal) ， 体 现 了 


词汇 差异 . 


为 了 解决 这 两 个 问题 ，Georgetown-IBM 实验 的 研究 人 员 建 立 了 含有 250 个 俄语 词汇 单 


位 的 词典 ， 每 个 俄语 词汇 单位 最 多 附 有 3 个 编码 ， 并 可 以 对 应 1 个 或 2 个 英语 翻译 . 研究 者 


同时 设计 了 6 条 语法 规则 , 让 程序 通过 检测 每 个 词汇 单位 的 编码 判断 语序 和 义 项 . 程序 处 理 


例句 1 中 ugla 一 词 时 涉及 的 词 条 与 算法 可 以 简化 表示 如 下 : 


内 建 词典 (部 分 )》 


RU ENI EN2 CODEI CODE2 CODE3 
-a of 131 222 25 
ugl- coal angle 121 25 


AMM GA) 


ZRULE2 ( 


if CODE1(i)=121 then 
if CODE2(i+1)=221 OR 222 then 
if CODE2(i+1)=221 then OUTPUT(i) — ENI(i) 


#RULE 3 ( 


H AT i-2. ANE 


前 的 词汇 


ic i+1 


else OUTPUT(i)=EN2(i) 


ic itl 


if CODE1(i)=131 then 
if CODE3(i-1)=23 then OUTPUT(i)— EN2(i) 


i<itl 


REF, RA FA? 
(为 -ya 还 是 -a) 判断 
一 词 多 义 的 例子 都 不 具备 形态 句法 识别 特 行 


多 只 能 对 应 2 个 目标 语言 义 项 ， 在 实际 处 理 


1 五 


FH, 


else OUTPUT(i) — EN2(i) 
swap OUTPUT(i), OUTPUT(i-1) 


ic itl 


从 算法 中 可 以 看 


单位 ugl 是 句 中 的 第 2 个 词汇 单位 ) 


目前 二 3， 表 示 执 行 RULE 2 后 到 达 句 |! 


第 3 个 词汇 


单位 -a) 


H, Georgetown-IBM 实验 


! 鉴 别 多 义 词义 项 的 方法 纯粹 基于 形态 学 : 


词 的 属 格 形式 分 别 为 uglya 和 usgla， 这 使 得 程序 可 以 通过 属 格 后 绥 


词根 ugl 的 语义 . 然而 ， 这 种 做 法 并 没有 解决 实质 问题 ， 因为 大 多 数 


E. 此 外 ， 该 算法 限定 了 每 个 源 语言 词汇 单位 至 


! 远 远 不 够 所以， 该 算法 在 处 理 词汇 差异 的 


该 算法 在 处 理 句法 差异 时 的 方法 虽然 也 基于 语言 学 , 但 相 较 而 言 更 为 可 取 . 在 俄语 和 英 


分 别 有 如 下 的 句法 规则 : 


俄语 : PP 一 NP P(case suffix) 


! 例如 ， 英 语 中 pen ENS, WHR RB 
? 例如，pen 作为 名 词 ， 


个 义 项 . 


CB 


(介词 短语 一 名 词 短语 fri) 


Kis] 


》 


图 


"AEN WEE 


BAS AVE LIA y. 


(Merriam-Webster’s Collegiate Dictionary, 11th edition) 中 就 给 出 


了 8 


PP 
NP P(suffix) 


| -a 


ugl 
英语 : PPOPNP (介词 短语 一 介词 名 词 短 语 ) 


E 


angle 


DE 


于 名 词 前 是 一 项 普遍 规律 . 


al 
au 


Jb. FEN ARRAY VE DET EE, HORA TII m to SE ETE Tr V] of 时 须 置 


但 是 从 语言 学 角度 解决 句法 差异 也 并 非 轻 而 易 举 . 首先 ， 各 语言 的 语序 存在 明显 差异 ， 


且 任 两 对 语言 差异 的 方面 都 不 同 ， 因 此 机 器 翻译 程序 的 算法 不 具有 普 裔 性 . 〈 如 果 选 择 一 种 


语言 C 一 一 例如 英语 


旦 度 的 简化 . 但 不 可 避免 地 ， 两 次 机 器 翻译 的 过 程 会 使 得 翻译 质量 显著 下 降 . 


a 


作为 源 语言 A 和 目标 语言 B 之 间 的 过 渡 语 言 ， 算 法 可 以 得 到 相当 


“) 其 次 ， 由 


于 结构 歧义 的 存在 , 即使 对 于 语言 学 家 十 分 了 解 的 两 种 语言 , 机 器 语序 处 理 也 可 能 产生 差错 . 


例如 ， 西 班 牙 语 和 英语 对 于 名 词 短 语 分 别 有 如 下 的 生成 规则 : 


西班牙 语 : NP 一 NP A 名词 短语 一 名 词 短 语 形容 词 ) 


”目前 Google 翻译 虽然 基于 统计 学 方法 ， 但 其 跨 语 言 处 理 的 过 程 也 涉及 英语 作为 过 渡 语 
翻译 成 汉语 时 ， 算 法 会 要 求 程序 先 将 法 语 翻译 成 英语 ， 再 将 英语 翻译 成 汉语 . 


. 例如 ， 从 法 语 


”例如 ,Google 翻译 将 法 语 的 vous 4 OSEE LOG HAC. 法 语 和 汉语 对 于 第 二 人 称 单数 皆 


AA 


翻译 算法 先 将 ‘vous’ 翻 译 成 ‘you"， 再 将 ‘you’ 翻 译 成 ‘你 *"， 从 而 造成 翻译 错误 . 


7 


您 ) 和 一 般 式 (tu、 你 ) 的 差别 CT-V distinction〉， 但 英语 缺乏 这 种 区 别 〈( 两 者 皆 为 you). 


尊敬 式 (Vous、 
因此 ，Google 


td 
| rojos 
zapatos 


英语 : NP 一 A NP 名词 短语 一 形容 词 名 词 短语 ) 


M 
K NP, 
m l 

"UN 


基于 此 ， 英 - 西 机 器 翻译 算法 在 处 理 语 序 时 理应 设计 将 名 词 短 语 和 形容 词 顺 序 调换 . 但 


这 样 并 不 能 保证 语义 准确 传达 . PIU. ‘red shoes and socks' 这 个 英语 短语 可 能 有 2 种 不 同 的 


句法 结构 ， 其 语义 也 不 相同 `: 


NP, NP; 
NP, CON) NP, + NP, 
red Shoes and socks red shoes and socks 


因此 , 将 ‘red shoes and socks’ I HE WK Pu BEA BEY , 为 保留 结构 歧义 可 能 产生 的 所 有 语义 ， 


理想 情况 下 须 按 照例 2 翻译 : 


例 2 
calcetines y zapatos rojos 
socks and shoes red 


red shoes and socks 


“红色 的 鞋子 和 袜子 
换言之 , 此 处 不 仅 涉 及 名 词 短 语 和 形容 词语 序 的 蔡 换 , 还 涉及 并 列 连词 连接 的 名 词 短语 


的 语序 蔡 换 . 例 2 的 处 理 过 程 说 明 ， 通 过 语言 学 方法 处 理 句 法 差异 ， 理 论 上 是 可 能 的 ， 但 实 


5 在 袜子 是 否 是 红色 这 一 问题 上 产生 歧义 . 


际 操作 复杂 . 考虑 到 处 理 算法 只 针对 特定 一 组 语言 有 效 ， 没 有 普遍 性 ， 这 样 的 处 理 在 我 们 的 


“文本 简化 ”方案 中 并 不 划算 . 


2.3 基于 统计 学 的 机 器 翻译 算法 及 其 评估 


统计 机 器 翻译 的 概念 早 在 1949 年 即 被 提出 ， 但 由 于 Georgetown-IBM 实验 基于 语言 学 


规则 算法 的 “巨大 成 功 ” 和 随后 乔 姆 斯 基 在 《句法 结构 》 一 书 中 对 量化 分 析 方 法 的 驳 论 ,统计 


算法 长 期 遭受 轻视 . 20 世纪 80 年 代 ， 很 多 研究 者 充分 意识 到 了 基于 语言 学 规则 的 机 器 翻译 


算法 不 能 有 效 解 决 词汇 语义 处 理 问 题 ， 由 此 开始 另辟蹊径 , 运用 和 改进 统计 学 算法 , 在 语义 


识别 和 句法 识别 上 都 取得 了 一 定 成 就 ， 但 也 存在 许多 突出 的 问题 . 


统计 机 器 翻译 基于 大 量 的 双语 平行 语 料 〈 源 语言 和 目标 语言 之 间 的 互 译 语句 ) . 通常 情 


况 下 ， 研 究 人 员 首 先 按照 语 料 内 容 的 领域 (domain) 、 主 题 (topic) 和 模式 (modality) 为 


平行 语 料 分 类 4 之后， 研究 人 员 将 平行 语 料 进行 语句 排列 〈sentence alignment) ， 进 而 统计 


出 源 语言 语句 4= (a, 4,,…, a, ) 中 的 一 个 词汇 单位 必 在 目标 语言 中 所 有 可 能 的 对 应 词 


b. sb, ,.... b, 出 现 的 概率 pb, |a,), p, 


d;),..- DAD; 


a;). 接着 ， 选 取 所 需 翻 译 内 容 的 领域 、 


主题 和 模式 下 ， 目 标语 言 中 概率 最 大 的 对 应 词 ， 以 实现 词汇 差异 的 处 理 . 


句法 差异 的 处 理 则 更 为 复杂 . 纯粹 的 统计 算法 通常 涉及 一 个 排列 函数 ， 以 处 理 源 语 襄 


a 和 目标 语言 5 之 间 词 序 的 不 同 . 我 们 用 i 一 ali) 表示 目 标语 言语 句 b 


第 i 个 词 对 应 源 语 


a 


言语 句 4 中 的 第 ea) 个 词 . 运用 处 理 词汇 差异 时 的 概率 方法 ， 可 以 得 到 ， 当 语句 a、b。b 长 度 


一 定时 ， 将 a 翻译 成 5 的 概率 


ly 
pb,ala)=C] ze 
i=l 


aai) ， 


| 
性 


1C 为 与 4,D KBEL,.L 有 关 的 定 值 . wA WELL Hm, paja) 减 小 . 最 初 


© 这样 可 以 确保 青少年 的 日 常 对 话 、 科 学 文献 和 联合 国 决议 在 翻译 时 得 以 分 别处 理 . 
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的 IBM 统计 机 器 翻译 算法 


算法 输出 p(b,a 


此 种 算法 与 Georgetown-IBM 实验 中 


但 对 于 特定 文本 而 言 ， 虽 然 


关 语 法 算法 理论 上 可 处 理 句 


后 


啊 ， 而 没有 考虑 具体 的 上 下 


然而 , 在 句法 处 理 的 部 分 , 这 种 基于 统计 学 的 方法 不 能 实现 基于 语言 学 方法 所 达到 的 准 


确 性 . 首先 ， 算 法 忽视 语法 规则 带 来 的 部 分 限 


[是 基于 下 式 判 


p(b,aja) = 


a) BK b= (b, b,, ... 


法 差异 ) ,但 其 中 茶 个 单词 的 语义 多 


文 对 词汇 语义 的 影响 ， 因 而 需要 改进 . 


lr p(b, aa) 的 : 


l, 
E 
Pee Te | | pb; 
(L, + 1)’ i=l 


b 


Aa) 


_) 作为 翻译 结果 . 


的 算法 相 比 ， 在 词汇 差异 处 理 


其 句法 规则 可 能 与 其 上 下 文 无 关 《〈 因 此 2.2 3i 


有 很 大 的 进步 . 


Vili: 


! 涉 及 的 上 下 文 无 


ESHER SM (尤其 是 其 前 


的 词语 ) 有 关 . 这 种 统计 算法 只 考虑 了 源 语言 文本 内 容 领 域 、 主 题 和 模式 对 词汇 语义 的 影 


不 能 保证 语句 局 中 的 单词 


a) 也 很 小 ， 最 终 输 日 


顺序 符合 名 


法 要 求 . 其 


很 大 时 ， 虽 仍 可 比较 不 同 的 p 的 相对 大 小 而 输出 最 大 的 p,a 


p(b.a 


2.4 小 结 


机 器 翻译 主要 面临 句法 差异 处 理 


一 定 程度 上 依靠 统计 学 方法 解决 


语言 学 中 的 生成 句法 规则 解决 


的 结果 准确 ， 


[t 


TE 


1113 


和 词 ; 


[ (语义 ) BAD 
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l, 
出 条 件 ， 因 此 当 | [pos 


i=l 


次 ， 就 该 模型 的 


这 2 个 问题 ， 


a) 达到 最 大 时 ， 


€ 


王 而 言 ， 当 语句 长 度 
(I, - 1)* 


a) 对 应 的 5， 但 由 于 最 大 的 


前 者 理论 上 可 依 


， 但 较为 复杂 ， 对 于 我 们 的 “文本 简化 ”成 本 太 高 ; 后 者 可 在 


3 基于 词汇 简化 的 “基本 英语 ”的 适应 性 


考虑 到 目前 尚 无 法 在 任 两 种 语言 间 轻 松 实现 句法 差异 处 理 , 我们 提出 了 一 种 过 渡 性 的 方 


法 : 将 复杂 的 英文 文本 转化 成 简易 的 “基本 英语 "文本 .“ 基 本 英语 ”词汇 由 英语 中 最 常见 的 n 


个 单词 组 成 . 算法 可 以 将 正常 英语 文本 中 超 


出 “基本 英语 ”词汇 的 单词 通过 统计 算法 蔡 换 成 语 


义 相同 的 “基本 英语 ?单词 〈 或 解释 性 词组 ) . 


据 统 计 ， 全 球 超过 55% 的 网 页 内 容 为 英语 ”， 而 45% 的 互联 网 用 户 年 龄 在 25 岁 以 下 . 我 


们 在 Facebook* 上 进行 了 面向 日 本 、 韩 国 、 新 加 坡 、 印 度 、 俄 罗斯 、 斯 诺 文 尼 亚 、 巴 西 等 国 


家 高 中 生 的 调查 . 结果 显示 ， 这 些 国家 中 ， 大 多 数 都 在 中 学 阶段 普及 了 英语 教学 ， 高 中 生 可 


以 理解 简单 的 英语 语句 ” 在 英语 -本 国语 机 器 翻译 难度 最 大 的 亚洲 国家 ， 英 语 语法 是 英语 教 


HE 
> 
+4 
e 
E 


习 者 和 英语 母语 者 都 有 很 大 难度 


从 英语 语言 学 的 角度 看 ,英语 在 历史 演化 过 程 中 , 丢失 了 印 欧 语系 其 他 语言 常见 的 语法 


特征 "， 此 外 ， 英 语 的 语序 较为 固定 . 这 


吸收 其 他 语言 中 的 词汇 ， 目 前 估计 英语 已 有 超过 100 73187. 很 多 相同 或 相近 的 语义 可 以 月 


语源 不 同 的 多 个 词语 表示 ”. 综 上 ， 英 语 的 难度 主要 体现 在 词汇 方面 . 


鉴于 此 ， 我 们 提出 了 “英文 文本 机 器 简化 ”的 方案 . 该 思路 巧妙 避免 了 复杂 而 不 具有 普遍 


[t 


生 的 句法 差异 处 理 过 程 . 


些 


此 英语 的 句法 对 于 亚洲 学 生 并 不 特别 困难 . 相 较 而 言 ， 英 语词 汇 对 于 非 母 语 学 


因素 导致 英语 语法 较为 简单 . 但 同时 ， 英 语 不 断 


au 


将 “基本 英语 "作为 全 球 辅助 语言 的 观念 早 在 20 世纪 30 年 代 即 有 人 提出 . 目前 ,，“ 基 本 


” 见 http://w3techs.com/technologies/overview/content_language/all 


* Facebook (http://www.facebook.com) 是 一 个 在 全 世界 范围 内 流行 的 社交 网 站 . 
英语 教育 ， 而 小 城市 或 乡村 缺乏 英语 教育 . 但 这 


imli 


”在 有 些 欧美 国家 (如 俄罗斯 ， 大 城市 注 
在 机 器 翻译 处 理 时 较为 简便 . 


€ 


国家 的 语言 


i 


10 与 《纽约 时 报 》 词 汇 难度 相当 的 SAT (美国 大 学 入 学 考试 ) 考试 阅读 部 分 ，2012 年 考生 (多 为 美国 高 中 
^E) 的 平均 分 只 有 496 分 (满分 800 分 ) ， 考 察 词汇 的 问题 得 分 普遍 较 低 . 
1 例如 ， 名 词 的 性 、 格 特征 ， 动 词 的 屈折 变化 特征 都 较 弱 . 


7 TL http://www.theguardian.com/books/2009/jun/10/english-million-word-milestone, 
http://www.languagemonitor.com/new-words/number-of-words-in-the-english-language-1008879/ 
B 如 表示 “昂贵 ;这 一 语义 的 单词 有 dear. expensive, costly, overpriced, exorbitant, extortionate 45. 
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英语 ”一 项 较为 成 功 的 应 用 是 美国 之 音 (Voice of America, VOA) 的 “特殊 英语 ”(Special 


English) 广播 . 此 外 ， 如 今 员 语 的 应 用 范围 比 其 他 任何 一 种 语言 都 要 广 ， 英 语 不 仅 限 于 某 个 


特定 的 民族 、 文 化 或 者 政体 ， 这 种 多 元 性 也 使 得 英语 易 被 众多 不 同 母 语 的 使 用 者 所 接受 . 


需要 


出 , 该 方案 并 非 面 向 全 球 所 有 用 户 , 而 是 专门 为 机 器 翻译 目前 无 法 较为 准确 地 处 


my 


理 其 母语 《例如 汉语 和 阿拉 伯 语 ) 的 互联 网 用 户 设计 的 ， 是 一 种 可 靠 的 过 渡 方 案 . 


4 “基本 英语 ”词汇 数目 的 确定 


4.1 简化 方案 的 假设 与 单词 的 计数 


为 了 定量 分 析 “ 基 本 英语 "中 应 涵盖 的 词汇 数 n, 我 们 假设 非 母 语 的 互联 网 使 用 者 对 英语 


单词 的 熟悉 程度 与 其 词 频 正 相关 . 这 里 ， 我 们 将 某 单词 的 所 有 届 折 词 级 inflectional affix) 


形式 看 做 1 个 单词 ， 但 将 单词 加 不 同 派生 词 级 (derivational affix) 的 形式 看 做 多 个 单词 . 此 


外 ， 单 词 的 多 个 义 项 按 词类 划分 为 多 个 不 同 单词. 


4.2 语料库 的 选择 


为 了 得 到 比较 准确 的 词 频 信息 ,我 们 选择 了 收录 464020256 isl] I] Corpus of Contemporary 


American English〈 当代 美国 英语 语料库 ，COCA) 公布 的 词 频 信息 《〈《 见 附录 ) . 


4.3 对 词 频 与 次 序 关 系 的 分 析 


图 1 表示 了 COCA 中 最 常见 5000 词 的 词 频 上 了 与 次 序 〈 按 词 频 从 高 到 低 排 列 ) 7 的 关系 . 
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500000 
450000 
400000 
350000 
300000 
250000 
200000 
150000 
100000 
50000 
0 


1 501 1001 1501 2001 2501 3001 3501 4001 4501 5001 
图 1 COCA 中 最 常见 5000 il f£ -r 图 象 
可 以 看 出 ，f 与 r 间 存在 类 似 负 指数 函数 型 关系 . 令 
f=ar™, 
两 边 取 对 数 〈 本 文中 1g 指 常用 对 数 log/。) ， 得 


lg f 21ga- blgr. 


作出 ljg f -lger BR (AD. 可 以 看 出 ，lgr>1.4 时 , 线性 拟 合 较 好 , 而 lgr <1.4 时 ， 


误差 较 大 . 因此 ， 我 们 手动 计算 了 次 序 前 25 的 词语 (lg25 =1.3979 ) ， 其 词 频 总 数 
F(25) =128431737 , 


em (4 COCA 总 文本 比例 ) 


c(25) = ©) 


= ————— = 21.618096 . 
464020256 
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~ I 
>~~~、、| 
l 
| 
4 
li 
1 
3 T T T T T T l T T T T T T T T T T T 1 


L| 
0 02 04 0.608 1 12141618 2 22242628 3 32 3.4 3.6 3.8 


2 COCA 中 最 常见 5000 词 的 lg f -lgr 图 象 及 其 线性 拟 合 线 


对 lgr >1.4 的 数据 进行 再 次 拟 合 (图 3) ， 得 出 lg f -lgr 的 关系 为 


lg f =7.9555-1.1326 lgr. 


lg(f) = -1.1326lg(r) + 7.9555 


0 0.20.4 0608 1 12141618 2 22242628 3 32 34 36 38 


图 3 对 lgr >1.4 的 数据 的 再 拟 合 


整理 ， 得 


9.0261x10" 
f = EFC x = 26 . 


1949 年 ， 语 言 学 家 齐 夫 提出 ， 自 然 语 言语 料 库 中 ， 某 单词 的 词 频 与 其 在 词 频 表 中 的 次 


序 成 反比 〈 齐 夫 定 律 ，Zipfs Law) ， 即 
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可 见 ， 我 们 得 出 的 三 -7 经 验 公 式 与 齐 夫 定律 大 致 吻合 . 


4.4 对 “基本 英语 ”词汇 数目 与 文本 覆盖 率 关 系 的 分 析 


EPAR, COCA 中 次 序 排名 前 的 单词 词 频 总 数 


9.0261x10" 
F(N) = F(25)+ y — dum one 26, 


i-26 


X F(25) 2128431737, c(25) = 27.678096, VJ, COCA 中 次 序 排名 前 n 的 单词 的 
覆盖 率 
F(n) 90261x10 % 1 
c(n) = —————— = c(25) + 
= 764020256” * 4.6402 25 | Ue 
= 27.6780% + 1.94520 x 107 pen Ton = 26. 


i26! 


为 了 判断 元 的 合适 取 值 ， 我 们 需 研究 函数 e(n) 的 性 质 ， 尤 其 是 


i26! 


n 


1 
A, pic Dus 1326: 


i-l 


tj 


考虑 用 积分 来 近似 ， 令 


=p 
B, _R=A-B 
1 

由 于 函数 也 在 (0,+%) 上 单调 减 ， 所 以 

n-l 

B, = ey N 

i=] i” 
即 

R >0. 

另 一 方面 ， 


1 4] + 1 
Ra "mS ES -f 一 dr -f 
(n-1^ J3» x? n | (n+ 
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n 


的 性 质 . 


让 1326 


: p 
x? 


1 
由 函数 在 (0,+%) 上 单调 减 可 知 ， 对 于 n<Xzn+1， 有 


1 1 
(n+l)? x? 


+ 1 
R -R -三 -— dx <0, 
UO ™ 3" Vn gly? x? 


nao Rosa. Leb R, > 0 ， 所 以 由 单调 数列 定理 可 知 数列 及 收敛. 


<0 


因此 


使 用 计算 机 估算 得 出 lim R, = 0.387 . pie, “in BEAR, 


n» +% 


l-n” gp 0195 
A, ~ B, +0.587 = 40.587 =- «8.128. 
p-1 0.1326 
综 上 可 得 ， 当 nn BAN, 
c(n) 
= 27.6780% +1.94520 x10 Y ae 
i26! 
s gp 01926 25 1 
~= 27.67180% 1.94520 x 10 EET. Vd ex) 
1.46697 
3s 4123152. 


4.5 “基本 英语 ”词汇 数目 的 确定 


我 们 在 确定 “基本 英语 ”词汇 数目 nn 时 有 两 方面 的 考量 : 


1、 这 nn 个 词汇 应 能 够 覆盖 绝 大 多 数 的 正常 英语 文本 . 如 此 ， 次 序 大 于 nn 的 单词 比例 较 


低 ， 且 需要 简化 的 内 容 可 以 较为 顺畅 地 用 次 序 小 于 nn 的 单词 表达 


&c(n)= 70% ， 带 入 表达 式 ， 即 有 n=2114. 又 由 图 3 WA, EIE e(n) 的 近似 公 


RARA, KER hit n €[2000, 2500] ht, AEA c(n) € [66% , 70%]. 这 个 范围 是 较 


为 合适 的 . 


2、 词 汇 数 目 大 于 n 时 ， 禾 盖 率 不 会 显著 增加 ， 但 词汇 数目 小 于 nn 时， 用 


分 别 作出 c(n) 和 其 导数 人 的 图 象 
n 


80 
70 
c(n)=1.23152-1.46697/n"0.1326 
60 
50 
40 


30 


20 


0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 


Al4 c(n) (百分比 )-n 图 象 


0.0001 
0.00008 
c'(n)=0.19452/n^1.1326 
0.00006 
0.00004 
0.00002 
0 4 T T T T T T T T T 1 
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 
dc(n 
图 5 a) y 图 象 
dn 


从 图 5 中 可 以 看 出 ， 在 区 间 [2000,3000] ，c(n) 的 增长 速率 明显 减缓 ， 这 一 点 在 图 4 中 
也 得 到 了 了 验证. 
综 上 ， 我们 将 设计 3 个 “基本 英语 ”的 词汇 数目 选项 ，2000 词 、2500 词 和 3000 词 . 用 户 将 可 


以 自行 选择 适合 自己 的 标准 . 
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45 其 他 参考 标准 


除了 进行 语料库 词 频 统计 以 确定 “基本 英语 ”词汇 数目 ,我们 还 参考 了 英语 作为 


和 一 :五 二 
第 二 语言 


(ESL ) 教 学 


常用 的 3 本 英语 学 习 者 词典 “, 三 者 分 别 使 用 2000—3000 个 基础 英文 词汇 (这 


些 词 


[被 认为 是 学 习 者 已 经 掌握 的 ) AAA 


kil} 


[释义 ,这 与 “英文 文本 及 其 简化 ”方案 的 基本 


思想 是 相通 的 . 这 些 词 典 在 全 球 广 受 


评 的 事实 从 一 个 侧面 反映 出 我 们 选取 


n € [2000,3000] 的 方案 具有 可 


行 性 . 


4.6 小 结 


要 实现 英文 文本 机 器 简化 , 首先 需 确定 “基本 英语 ”的 词汇 数 


目 . 我 们 通过 检验 COCA 词 


fr 


[数目 确 


频数 据 ， 将 “基本 英语 ” 词 ; 


ZH 


定 在 2000 至 3000 ^^, ix 5 ESL 教育 中 常见 的 基础 词汇 


[si 
= 


相符 . 


5 原始 文本 中 非 “ 基 本 英语 ?词汇 的 替换 方法 
5.1 确定 “基本 英语 ”对 原始 文本 词汇 的 表述 
5.1.1 简化 (释义 的 原则 


对 于 非 "基本 英语 " 词 


L GATA n Br? 


LO ， 大 多 数 需要 用 “基本 英语 ”词汇 进行 简化 . 
简化 时 ， 理 想 情况 下 须 依 次 遵循 以 下 原则 . 这 三 项 原则 不 能 同时 满足 时 ， 应 按照 1、2、3 的 


顺序 予以 取舍 . 


1、 可 替换 性 


“基本 英语 ”的 简化 结果 须 可 直接 丛 换 原文 ， 而 不 造成 语法 或 语义 上 的 


损失 . 


分 别 是 《 牛 六 


高 阶 英语 词 


》 (Oxford Advanced Learner's Dictionary, 8th edition) 、《 上 明文 当代 高 级 英 
WL) (Longman Dictionary of Contemporary English, 5th edition) 和 《 韦 氏 高 阶 美语 词典 》 
(Merriam-Webster’s Advanced Learner's Dictionary, Ist edition) . 
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2. dE ESE A OR "RS RT HG ZR ARV SC R A RR. 


3、 简 洁 性 一 一 “基本 英语 ”的 简化 结果 须 简单 明了 ， 尽 可 能 使 用 一 个 单词 简化 男 一 个 单 


词 . 


原则 1 和 原则 3 在 词典 编纂 的 实践 中 很 难 实现 ， 因 为 许多 语法 性 词语 (例如 介词 ) 无 法 


用 蔡 换 法 定义 . 但 由 于 这 里 需要 简化 的 都 是 次 序 大 于 2000 的 词语 ,因此 在 实际 简化 过 程 中 ， 


很 多 词语 都 是 可 通过 直接 替换 实现 . 


5.1.2 简化 (释义 〉 的 方法 和 范例 


英语 100 万 单词 中 ， 受过 良好 教育 的 大 学 毕业 生 大 约 认识 75000 词 . 因此 ,我 们 的 简化 


可 以 局 限 在 次 序 2000 < n < 10000 的 单词 中 . 首先 , 我 们 需要 手动 构建 一 部 分 正常 英语 -“ 基 


本 英语 ”词典 , 在 此 过 程 中 应 参考 英语 母语 者 和 ESL 使 用 的 词典 ,以 确保 最 大 程度 的 准确 性 . 


以 下 是 部 分 词 条 内 容 : 


正常 英语 词类 “基本 英语 ”2000 2500 3000 
aardvark n aardvark (large African animal) 
abandon M give up 
v leave 
n unlimited freedom 
abase M put down lower 
aback i by surprise 
i toward the back 


需要 注意 ， 并 非 所 有 简化 蔡 代 的 内 容 缘 须 取 自 "基本 英语 "的 词汇 范畴 ， 对 此 将 在 5.3 


节 说 明 . 按 1 人 1 天 可 以 编写 40 个 词 条 计算 ,5 人 可 以 在 50 天 内 完成 10000 条 词 条 编写 . 包 


括 校 验 和 小 范围 测试 在 内 ，2 至 3 个 月 可 以 完成 初期 的 词典 编写 任务 . 从 词典 中 可 以 看 出 ， 


当选 用 3000 词 或 2500 词 模式 时 ，2500 词 释义 优先 级 高 于 2000 词 释 义 . 此 外 ， 句 法 中 心 词 


下 划 线 表示 ) ， 这 有 助 于 5.3 节 对 屈折 词缀 的 处 理 . 


ips 


(syntactic head) WE REEK Rin OX H 
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5.1.3. 维基 式 公测 


根据 当 次 序 2000 < n < 12000 词汇 的 内 建 词典 已 经 全 部 完成 时 ,根据 4.4 节 求 出 的 c(n) 


RIA, Alt IK 80%. 此 时 机 器 简化 程序 可 以 开始 进行 公共 测试 . 对 于 无 法 精准 简化 的 


词语 ,公共 测试 期 间 可 以 以 相同 几率 呈现 多 个 简化 版 本 . 用 户 可 以 通过 投票 方式 表达 对 简化 


的 满意 度 , 满意 度 较 高 的 翻译 将 被 给 予 较 大 的 权重 . 用 户 还 可 以 对 未 能 简化 的 单词 进行 自行 


简化 . 算法 会 吸收 用 户 的 建议 ， 众 多 用 户 提交 的 简化 方案 将 被 算法 采纳 . 这 样 ， 编 写 后 续 词 


典 的 进程 将 大 大 加 快 ， 简 化 的 质量 也 将 逐步 提高 . 


52 确定 语义 合理 性 的 统计 学 模型 及 其 评估 


5.2.1 n-gram 语言 模型 


本 文 的 第 2 部 分 提出 ,机 器 翻译 中 的 词汇 差异 处 理 可 以 采用 基于 统计 学 模型 的 算法 解决 . 


IBM 1 模型 无 法 联系 上 下 文 分 析 语义 . 因此 ， 我 们 采用 n-gram 模型 分 析 英 文 文本 机 器 简化 


算法 中 涉及 到 的 语义 识别 问题 . 


文本 中 连续 出 现 的 某 n 个 单词 称 为 一 个 n-gram. 例如 在 句子 “That's one small step for a 


man, a giant leap for mankind.” 中 , small step for 是 一 个 3-gram, step for a man 是 一 个 4-gram, 


句 中 的 任 一 单词 都 单独 构成 一 个 1-gram. 


n-gram 语言 模型 基于 这 样 一 种 假设 : 每 个 词 出 现 的 概率 只 与 在 它 之 前 的 至 多 n-l 个 词 有 


A. 与 其 它 任何 词 都 不 相关 . 在 这 样 的 假设 下 , 我 们 可 以 从 大 量 语 料 中 统计 得 到 每 个 n-gram 


出 现 的 频率 ， 用 来 计算 单词 出 现 的 概率 ， 并 进行 进一步 的 文本 简化 处 理 . 


n-gram 语言 模型 的 优点 在 于 ， 训 练 模型 时 只 需要 在 大 量 语 料 中 统计 各 个 n-gram 出 现 的 


次 数 ， 过 程 相对 简单 . 此 外 ， 在 资源 充足 的 情况 下 ， 只 需要 增加 参数 n 的 大 小 ， 就 能 使 得 模 


型 的 准确 度 有 所 提升 . 
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在 实际 应 用 中 ，n-gram 语言 模型 被 广泛 运用 于 计算 语言 学 ， 例 如 统计 自然 语言 处 理 . 


5.2.2 n-gram 模型 的 问题 


n-gram 语言 模型 最 大 的 问题 在 于 可 能 的 n-gram 数量 非常 多 . 假设 词典 大 小 仅 为 


V=10000， 并 取 n=3， 可 能 的 n-gram 数量 将 会 达到 v"-10". 


在 实际 应 用 中 , 计算 机 不 仅 没有 足够 的 内 存 来 存储 这 么 多 数据 , 而 且 运 算 速 度 也 不 足以 


快速 处 理 这 些 数据 . 更 重要 的 是 ， 为 训练 n-gram 语言 模型 ， 需 要 对 规模 比 V" 更 大 的 语料库 


进行 统计 ， 这 也 是 无 法 实现 的 . 


5.2.3 n-gram 模型 的 改进 


在 自然 语言 中 n-gram 是 非常 稀疏 的 . 如 果 统 计 得 出 V" 个 n-gram 出 现 的 频率 , UU Ay AE 


其 中 大 部 分 频率 都 等 于 0. 


我 们 考虑 随机 选择 n 个 英语 单词 排列 在 一 起 . 首先 ,得 到 的 词组 可 能 是 不 符合 语法 规则 


的 ， 例 如 *VI N 〈* 不 及 物 动词 Bi) “词组 ， 或 者 在 某 个 不 能 用 作 定 语 的 形容 词 之 后 加 上 


了 名 词 . 


此 外 ， 即 使 符合 语法 规则 ， 词 组 也 很 可 能 没有 实际 语义 . 乔 姆 斯 基 在 《句法 结构 》 中 举 


` 


过 “Colorless green ideas sleep furiously” 这 个 例子 . 该 句 完全 符合 英语 的 语法 规则 : 


A; NP; V ADV 


colorless A, NP, sleep furiously 


| 
green N 


ideas 
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但 是 在 这 个 句子 中 ,不仅 colorless 和 green 矛盾 ， 


以 及 用 副词 furiously 修饰 sleep 都 是 罕见 的 , 所 


寻 此 ,如 果 我 们 利用 n-gram BÉ T.H Et 


这 样 的 语法 的 数量 是 可 以 接受 的 . 


LH 


对 于 不 常 出 现 的 mn-gram, 我 们 使 用 一 种 


我 们 要 计算 4-gram step for a man 出 现 的 概率 ， 


而 且 使 用 形容 词 colorless 或 green 形容 ideas， 


以 这 个 句子 几乎 不 可 能 出 现在 正常 的 文本 中 . 


计 并 存储 最 经 常 出 现 的 一 部 分 n-gram 语法 ， 


退 ” 的 方式 计算 概率 . 以 $.2.1 节 的 语句 为 例 ， 


W P(step for a man). 但 是 step for a man 这 


个 4-gram 可 能 在 语法 中 并 没有 记录 . 这 时 我 们 去 掉 第 1 个 单词 , 得 到 for a man, 这 个 3-gram 


是 有 记录 的 ， 因 此 P(for a man) 等 于 该 3-gram H 


Im- 


但 是 ， 因 为 我 们 去 掉 了 第 1 个 


已 词 “step”， 


LH 


Bi EG SERERE 


H 现 的 频率 ， 记 为 F(for a man). 


才 使 得 P(step for a man) 增 加 为 F(for a man), 


退 权 ” 来 表示 去 掉 step 的 损失 ， 记 为 B(step for a). Hl P(step for a 


man)-F(for a man)-B(step for a). 对 于 每 个 n-gram， 回 退 权 B 是 一 个 和 频率 下 一 同 记录 的 参 


数 . 如 果 某 个 n-gram 没有 被 记录 ， 那 么 我 们 认为 它 的 


LH 


iB BUS 1. 


如 果 去 除 第 1 个 单词 之 后 的 n-gram 仍然 没有 记录 ， 可 以 继续 去 掉 剩 下 的 第 1 个 单词 ， 


并 乘 上 对 应 的 回 退 权 ， 直 到 得 到 一 个 在 语法 中 


green ideas sleep furiously” 为 例 : 


有 记录 的 n-gram Aik. 以 5-gram“colorless 


P(colorless green ideas sleep furiously)-P(green ideas sleep furiously) B(colorless green 


ideas sleep) 


P(green ideas sleep furiously)=P(ideas sleep furiously): B(green ideas sleep) 


P(ideas sleep furiously)=P(sleep furiously): B(ideas sleep) 


P(sleep furiously)=P(furiously):-B(sleep) 


P(furiously)-F(furiously) 


综合 以 上 5 个 等 式 得 出 : 
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P(colorless green ideas sleep furiously)-B(colorless green ideas sleep) B(green ideas 


sleep): B(1deas sleep): B(sleep)-F(furiously). 


在 上 述 例子 中 , 为 了 计算 P(colorless green ideas sleep furiously), 我 们 连续 回 退 了 4 次 得 


到 P(furiously)， 而 1-gram 的 概率 P(furiously) 就 是 该 单词 出 现 的 频率 ， 即 F(furiously). 


5.3 n-gram 语言 模型 的 应 用 


我 们 可 在 n-gram 语言 模型 的 基础 上 加 以 修改 ， 以 处 理 英文 文本 机 器 简化 中 的 语义 识别 


问题 . 


首先 要 解决 的 问题 是 参数 n 的 选择 . 网 络 上 收集 到 的 n-gram 公开 统计 资料 中 , 最 大 的 n 


AS. 另 一 方面 ， 我 们 相信 ， 一 个 单词 的 前 后 4 个 单词 足以 得 出 它 的 出 现 概 率 ， 因 此 下 面 的 


讨论 中 取 n=5. 


设 我 们 在 分 析 一 个 包含 工 个 单词 的 句子 Wi,W2,W3,…,WL 中 的 第 i 个 词 Wi， 我 们 不 妨 假 


设 5<i<L-4， 这 样 Wi 前 后 都 至 少 有 4 个 词 . 考虑 Wi 在 “基本 英语 ?中 的 m 种 可 能 的 蔡 换 


VbV2…Vnm. 为 辨别 出 最 合适 的 蔡 换 ， 我 们 给 每 一 个 替换 V 一 个 评分 Score(V)， 求 出 


Score(V1),Score(V?)，.,Score(Vm) 之 后 ， 选 择 其 中 得 分 最 高 的 作为 输入 文本 中 单词 Wi 的 最 佳 


BK. 下 面 我 们 重点 讨论 评分 函数 Score(V) 的 设计 . 


>H 


OSE oP AY H E E a E AA E. 


此 ， 我 们 将 Score(V) 定 义 为 : 把 Wi & 


换 为 V 后 ， 整个 句子 出 现 的 概率 ， 记 为 PC(WDW2 WiDV, Wir,..., WL). 


日 于 n-gram 模型 的 假设 ， 我 们 只 需要 考虑 V 前 后 的 4 个 单词 ， 


一 


P’(Wia, Wi3, Wi2, Wi1,V, Wir1, Wit2, Wiss, Wis). 


妹 为 对 于 当前 的 分 析 而 言 ， 参 数 中 只 有 V 是 变量 ， 所 以 我 们 只 需要 考虑 与 V 相关 的 


n-gram 出 现 的 概率 . 根据 乘法 原理 ， 这 个 概率 为 
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P'CWiL,Wis,Wio,Wi4, Vj P'(Wis,Wio, Wii, V, Wisi)... P'(V,Wia Wuo,Wia,Wiya). 


z 
i 


之 前 提 到 ， 在 计算 PQXQXo2.,X3H]. WR 5-gram Xi1,X2,.….,Xs 不 存在 ， 一 般 采 用 


的 方式 计算 . 这 个 方法 涉及 到 一 个 参数 “ 回 退 权 ” 由 于 公开 的 统计 资料 有 限 ， 我 们 使 用 另 一 


种 处 理 方式 ， 这 个 方法 只 需要 使 用 每 个 常用 n-gram 的 频率 F. 


回想 使 用 “ 回 退 权 ” 的 目的 ， 是 表示 从 n-gram 中 去 掉 若 干 个 词 带 来 的 损失 . 我 们 不 妨 反 


过 来 考虑 ， 对 “没有 去 掉 词 ”的 n-gram 进行 “奖励 加 分 ”. 我 们 规定 


P (X1,X2,X3,X4,X5)=F(X1,X2,X3,X4, Xs) F(X2,X3,X4,X5) F(X3,X4,X5) FE(X4X5)F(X5) 


FEE, WRES n-gram 并 没有 在 记录 中 出 现 ， 那 么 对 应 的 频率 记 为 常数 e e 应 当 


远 小 于 最 小 的 频率 并 且 大 于 0. 


我 们 考虑 计算 两 个 5-gram “the owner of the shop” 与 “colorless green ideas sleep furiously” 
出 现 的 概率 P” 根据 上 述 公式 : 

P’(the owner of the shop)=F(the owner of the shop):F(owner of the shop):F(of the 
shop):F(the shop)-F(shop) 

P'(colorless green ideas sleep furiously)=F(colorless green ideas sleep furiously)-F(green 


ideas sleep furiously) F(ideas sleep furiously): F(sleep furiously):F(furiously) 


zt 


第 一 式 中 的 5-gram the owner of the shop 比较 合理 ， 因 此 等 式 右 侧 的 五 个 n-gram 都 在 语 


法 中 有 记录 . 


IU 


在 第 二 式 中 ， 因 为 涉及 的 2-gram,3-gram,4-gram 和 5-gram 非常 罕见 ， 在 语法 资料 中 都 


zt 


没有 记录 ， 所 以 依照 我 们 的 规则 得 到 


P’(colorless green ideas sleep furiously)=s*-F (furiously) 


于 & 是 一 个 很 小 的 常数 ， 所 以 得 到 的 结果 是 P (colorless green ideas sleep furiously) 远 


小 于 P’(the owner of the shop)， 是 合理 的 . 
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5.4 例外 及 其 解决 办 法 


在 简化 非 “ 基 本 英语 ”单词 时 ， 必 须 注意 一 些 例外 情况 . 


5.4.1 届 折 词缀 


语料库 的 词 频 统计 并 不 包括 含有 屈折 词 级 形式. 因此， 算法 在 离 析 词 汇 时 ,会 一 并 检测 


出 现 的 届 折 词 级 词汇 单位 ， 


判断 该 词 弛 对 应 的 屈折 变化 ， 并 要 求 对 应 简化 的 句法 中 心 词 


(syntactic head) 进行 相同 的 屈折 变化 . 这 个 过 程 由 算法 中 的 一 系列 英语 形态 音 系 学 上 下 文 


无 关 规则 实现 . 


5.42 专 有 名 词 和 术语 


专 有 名 词 和 普通 名 词 一 样 被 计 入 语料库 统计 . 因此 , 在 内 建 词 典 中 ， 专 有 名 词 永远 被 简 


化 为 其 本 号 . 术语 通常 由 普通 名 词组 成 ， 对 于 1 个 单词 构成 的 术语 ， 词 典 中 应 该 具有 该 单词 


作为 术语 的 义 项 . 特别 地 ， 非 英语 的 术语 由 于 不 会 被 计 入 语料库 中 ,所 以 在 输出 时 会 保留 其 


原形 . 


5.4.3 其 它 较 为 专业 的 名 词 


较为 专业 的 名 词 通常 在 简化 解释 中 保留 其 原型 ,同时 在 简化 (解释) 中 加 以 简单 描述 ， 


例如 5.1.2 节 词典 中 对 aardvark 一 词 的 简化 . 经 过 这 样 的 简化 ， 一 般 用 户 可 以 得 知 这 个 名 词 


所 指 的 大 致 内 容 ， 而 需要 专业 知识 的 用 户 也 可 以 继续 查询 这 方面 的 信息 


5.4.4 成 语 动 词 


成 语 动词 (phrasal verb) 是 由 一 个 (通常 较为 普遍 的 ) 动词 和 介词 /副词 连用 的 动词 形 


X. 由 于 这 样 的 动词 和 介词 /副词 都 较为 常见 , 理论 上 不 会 在 简化 时 发 生变 化 . 但 是 成 语 动词 
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的 语义 对 于 英语 非 母语 者 可 能 是 


这 并 不 意味 着 不 能 使 月 


5.4.5 对 简化 解释) 可 用 词汇 的 附加 说 明 


a 


简化 所 月 


的 词汇 原则 上 应 来 源 于 相应 数量 的 "基本 英语 " 词 ; 


n 
R 


5.5 小 结 


英文 文本 机 器 简化 算法 内 建 词典 的 简化 解释 应 该 遵循 可 蔡 换 性 、 非 歧义 性 和 简洁 1 


则 . 首 批 10000 个 单词 简化 完毕 后 进 


我 们 采用 修 ] 


语法 采用 “ 回 退 ”方式 处 得 


综合 运用 语言 学 规则 和 词典 简化 (释义 ) 方法 处 理 . 


6 算法 〈 伪 代码 ) 


6.1 函数 说 明 


本 算法 涉及 3 个 函数 . 


函数 Part of Speech Tagging {FA 


行程 序 公测 , 并 通过 维基 式 的 学 习 不 断 完善 词典 和 算法 . 


ARAN, 因此 简化 (解释 ) 中 应 避免 不 常见 的 成 语 动 词 ,但 


的 成 语 动 词 ( 例 如 5.1.2 节 词 典 中 的 give up) . 


L. 但 大 多 数 情 况 下 ， 由 多 个 


基本 英语 ”词汇 构成 的 、 语 义 为 两 语素 简单 县 加 的 合成 词 也 可 被 接受 . 


Nm 


生 的 原 


模型 ， 对 常见 的 n-gram 语法 加 以 储存 ， 对 不 常见 的 n-gram 


汇 语义 差异 和 义 项 选择 的 问题 . 届 折 词缀 和 其 他 例外 应 


为 “词类 标记 ”, 在 6.2 节 (“ 基 本 英语 ”词汇 判断 算法 ) 


函数 Inflectional Affix 作用 为 “识别 (并 去 除 ) 届 折 词 


作用 为 “在 句法 中 心 词 上 进行 


例如 ， 对 名 词 复数 后 缀 的 形式 判断 依次 基于 如 下 规则 ; 


! 通 过 与 语料库 语 料 对 比分 析 实 现 . 


; BAX Apply Inflectional Auffix 


TAR”, X 2 个 函数 需要 通过 英语 的 形态 音 系 学 规则 实现 . 


AND JEW È 


2. {-z}>|-4z| / 前 置 辅音 = 
3. {-z} 一 |-z| / 其它 


E 
ng 


第 1 条 


条 和 第 3 条 规则 输出 -s， 而 第 2 条 规则 输出 -es. 这 样 的 有 序 规则 容易 在 算法 中 实现 . 


6.2“ 基 本 英语 ”词汇 判断 算法 


#Word_Paraphrase(W , Pos) 返 回 单词 W 在 词类 PoS 下 的 释义 列表 
Word Paraphrase (W , Pos) 
Le 空 列 表 
nc 单词 W 在 词类 Pos 下 的 义 项 总 数 
fori-1 ton do 
if 第 i 个 义 项 存在 “3000 WIRE" then 
在 工 末尾 添加 第 i 个 义 项 的 "3000 词 释 义 ” 
else if 8 i 4 个 义 项 存在 “2500 词 释义 ”then 
在 LL 末尾 添加 第 i 个 义 项 的 “2500 词 释 义 ” 


else 


在 LL 末尾 添加 第 i 个 义 项 的 “2000 词 释义 ” 
endif 
7 [A] L 


6.3 n-gram 语言 模型 算法 


Sentence Score(S) 返 回 句子 S 的 语义 合理 性 评分 ， 句 中 单词 依次 记 为 WW»... 
Sentence Score(S) 
n — S 包含 的 单词 数 


Score < 1 


fori = 1 to n do 
#start 表示 以 第 i 个 词 为 结尾 的 5-gram 的 起 始 位 置 ， 如 果 i<4 则 start 为 1 
if1«4 then 


start — 1 


else 
start —i-4 
endif 
for j = start to i do 
if n-gram “Wj, Wis, ..., Wi? 在 语法 规则 中 存在 then 
# 得 分 乘 上 出 现 的 频率 
Score — Score * F(Wi, Win,..., Wi) 


else 
# 得 分 乘 上 常数 e 
Score — Score * 8 
endif 
返回 Score 
# Sentence Simplification(S)3R EHF S 简化 后 的 结果 ， 句 中 单词 依次 记 为 WiW»,... 
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Sentence Simplification(S) 
记录 S 中 标点 符号 并 从 S 中 去 除 所 有 标点 
nc S 包含 的 单词 数 
# PAŽI Part of Speech Tagging 标记 S 中 各 个 单词 的 词类 , 记 为 PoS1,PoS,,.…, PoS, 
Part of Speech Tagging(S) 


fori = 1 ton do 
# 函 数 Inflectional Affix 返回 一 个 二 元 组 ， 分 别 为 单词 的 屈折 词 级 和 原型 
(IS; , Wi) — Inflectional Affix(W;) 
S'— BA 
fori-1 ton do 
# 查找 单词 Wi 在 词类 PoSi 下 的 所 有 释义 
L — Word Paraphrase(Wi; , PoS;) 
Len — SI L 的 长 度 
MaxScore — 0 
# Best 记录 当前 的 最 优 释义 ， 初 始 值 为 空 
Best — NULL 
for j = 1 to Len do 
tmp — 将 S 中 Wi 蔡 换 为 释义 LL 之 后 的 句子 
# 如 果 蔡 换 后 的 得 分 更 高 ， 更 新 最 优 释义 


if Sentence Score(tmp) > MaxScore then 


MaxScore < Sentence Score(tmp) 
Best — L; 
# PRA Apply Inflectional Affix 返回 : 释义 Best 的 句法 中 心 词 添加 屈折 词缀 
ISi 后 的 结果 
在 S’ 的 末尾 添加 Apply Inflectional Affix(Best , IS;) 
在 S 中 添加 上 原名 的 标点 符号 
返回 S? 


6.4 词汇 简化 算法 


# Text_Simplification(T) 为 文本 简化 算法 的 主 函数 ， 返 回 和 输入 的 英文 文本 工 的 简化 结果 
Text Simplification(T) 

将 文本 工 划分 为 mm 个 句子 SiS, Sn 

T'— 空 文本 

for i = 1 to m do 

# 将 了 逐 句 简化 后 合并 

TE TAS AR EUS Sentence Simplification(S;) 
BRET 


6.5 小 结 


本 算法 分 为 3 个 步骤 : 判断 词汇 是 否 需要 简化 、 考 察 需 简化 词汇 的 合理 义 项 、 实 行 词汇 


简化 . 在 算法 和 词典 的 基础 上 ， 英 文 文本 机 器 简化 的 方案 将 得 以 最 终 实 现 . 
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附录 


Corpus of Contemporary American English (COCA) 最 常见 500 词 表 


(基于 http://www.wordfrequency.info/ff] 5000 iA] # ) 


次 序 (r) 


词类 
a 
M 
C 
i 
a 
i 
t 


M 


p 
p 


FMA) 
22038615 
12545825 
10741073 
10343885 
10144200 
6996437 
6332195 
4303955 
3978265 
3872477 
3856916 
3430996 
3281454 
3081151 
2909254 
2683014 
2573587 
2485306 
1915138 
1885366 
1865580 
1820935 
1801708 
1776767 
1767638 
1712406 
1638830 
1635914 
1619007 
1490548 
1484869 
1379320 
1296879 
1181023 
1151045 
1083029 
1022775 


30 


38 
39 
40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
51 
52 
53 
54 
55 
56 
57 
58 
59 
60 
61 
62 
63 
64 
65 
66 
67 
68 
69 
70 
7 
72 
73 
74 
75 


= 


a 'g 


< 


1018283 
992596 
969591 
933542 
925515 
919821 
892535 
892102 
874406 
857168 
829018 
824568 
795534 
784528 
772787 
769254 
768232 
764657 
756550 
709623 
691468 
685982 
678626 
678603 
677870 
677711 
677707 
674193 
670745 
668172 
663645 
659622 
628254 
617932 
605997 
579757 
568850 
547799 


76 
77 
78 
79 
80 
81 
82 
83 
84 
85 
86 
87 
88 
89 
90 
91 
92 
93 
94 
95 
96 
97 
98 
99 
100 
101 
102 
103 
104 
105 
106 
107 
108 
109 
110 
111 
112 
113 
114 
115 
116 
117 
118 
119 


then 
its 
how 
our 
more 
want 
these 
two 
look 
way 
also 
first 
because 
new 
day 
use 
more 
here 
well 
man 
no 
thing 
her 
find 
very 
tell 
many 
give 
only 
those 
one 
back 
even 
good 
us 
any 
woman 
through 
child 
there 
life 
down 
may 


work 


543977 
539719 
538893 
525107 
517536 
514972 
513864 
511027 
491707 
470401 
464606 
463566 
438539 
435993 
432773 
420781 
420170 
412315 
411776 
409760 
402222 
400724 
397950 
395203 
391821 
388155 
385348 
384503 
379574 
378007 
369553 
367844 
361067 
353973 
351088 
348100 
341422 
340921 
333849 
333433 
333085 
329409 
324569 
318210 
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120 
121 
122 
123 
124 
125 
126 
127 
128 
129 
130 
131 
132 
133 
134 
135 
136 
137 
138 
139 
140 
141 
142 
143 
144 
145 
146 
147 
148 
149 
150 
151 
152 
153 
154 
155 
156 
157 
158 
159 
160 
161 
162 
163 


after 
should 
call 
school 
world 
over 
still 
try 
last 

in 

ask 

as 

too 
need 
feel 
state 
when 
three 
between 
really 
never 
become 
high 
student 
something 
most 
much 
family 
out 
mean 
another 
leave 
own 
let 

put 

on 

old 
why 
while 
keep 
group 
talk 
big 
hand 


a < =.. 


< 


311902 
310265 
308050 
304183 
303506 
300349 
296953 
294023 
289843 
285035 
284632 
281483 
280396 
276744 
275214 
272193 
268219 
266744 
264158 
263414 
262584 
259102 
255936 
255047 
254910 
246360 
244507 
243267 
242443 
242198 
240646 
240482 
240452 
240300 
237480 
236980 
236577 
235442 
234555 
231760 
229435 
229429 
227169 
225247 


164 
165 
166 
167 
168 
169 
170 
171 
172 
173 
174 
175 
176 
177 
178 
179 
180 
181 
182 
183 
184 
185 
186 
187 
188 
189 
190 
191 
192 
193 
194 
195 
196 
197 
198 
199 
200 
201 
202 
203 
204 
205 
206 
207 


great 
country 
same 
turn 
seem 
begin 
problem 
help 
American 
start 
where 
every 
might 
about 
over 
show 
part 
such 
again 
right 
against 
company 
place 
case 
system 
week 
few 
most 
each 
hear 
program 
where 
question 
so 
government 
during 
Mr 

play 
work 
run 
number 
small 
night 
off 


c. 


a B 


225005 
223138 
222836 
221392 
219627 
218617 
217728 
216082 
214968 
213952 
213744 
212739 
209059 
208550 
208260 
208037 
207861 
207065 
206895 
205250 
204379 
203345 
202427 
200773 
200175 
199268 
197266 
197086 
196522 
196070 
195985 
194427 
192070 
191893 
191314 
190729 
188555 
188328 
187533 
187325 
186005 
185463 
184511 
183854 
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208 
209 
210 
211 
212 
213 
214 
215 
216 
217 
218 
219 
220 
221 
222 
223 
224 
225 
226 
227 
228 
229 
230 
231 
232 
233 
234 
235 
236 
237 
238 
239 
240 
241 
242 
243 
244 
245 
246 
247 
248 
249 
250 
251 


today 
happen 
like 
always 
move 
believe 
point 
hold 
all 
million 
next 
live 
large 
bring 
study 
before 
room 
without 
must 
home 
lot 
mother 
eye 
water 
national 
area 
money 
under 
fact 
story 
right 
month 
different 
write 
head 
young 
yes 
issue 
kind 
job 
business 
book 
word 


side 


183724 
182714 
182341 
179474 
179388 
178397 
177481 
177368 
177317 
176895 
176306 
176144 
175611 
174366 
174069 
172769 
172472 
172448 
171043 
170527 
169570 
169407 
169150 
167666 
166359 
165812 
164794 
164766 
164401 
163582 
163259 
162685 
162411 
161824 
160131 
160011 
157364 
156417 
155032 
154743 
154468 
154013 
152891 
152559 


252 
253 
254 
255 
256 
257 
258 
259 
260 
261 
262 
263 
264 
265 
266 
267 
268 
269 
270 
271 
272 
273 
274 
275 
276 
277 
278 
279 
280 
281 
282 
283 
284 
285 
286 
287 
288 
289 
290 
291 
292 
293 
294 
295 


though 
provide 
black 
four 
little 
house 
long 

far 

sit 

both 
game 
service 
father 
away 
political 
important 
around 
friend 
after 
however 
long 
power 
since 
stand 
until 
often 
hour 
among 
line 
ever 

yet 

bad 
member 
president 
end 

lose 

law 

car 
include 
pay 
community 
social 
city 


team 


152182 
150879 
150718 
150646 
149658 
149251 
149050 
148621 
147185 
146338 
146311 
146122 
145051 
144713 
144437 
144194 
143766 
142697 
142289 
142282 
142007 
141357 
141264 
140937 
140819 
140731 
138955 
138192 
135986 
135774 
135484 
134910 
134731 
134203 
134104 
134102 
133706 
133571 
133563 
133133 
133057 
132899 
132684 
131489 
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296 
297 
298 
299 
300 
301 
302 
303 
304 
305 
306 
307 
308 
309 
310 
311 
312 
313 
314 
315 
316 
317 
318 
319 
320 
321 
322 
323 
324 
325 
326 
327 
328 
329 
330 
331 
332 
333 
334 
335 
336 
337 
338 
339 


meet 
almost 
set 
information 
face 
name 
white 
nothing 
minute 
later 

kid 
right 
once 
continue 
much 
five 

ago 
body 
back 
door 
watch 
best 
learn 
real 
several 
least 
change 
around 
lead 
idea 
whether 
level 
stop 
understand 
anything 
public 
parent 
follow 
create 
together 
such 

art 

add 


war 


128737 
127907 
127369 
127331 
127291 
127139 
126760 
126717 
126660 
126495 
126428 
126278 
126203 
126029 
126029 
125571 
125252 
125165 
125006 
124993 
124976 
124850 
124346 
124187 
124039 
123961 
123183 
122789 
122691 
122140 
121921 
121704 
121481 
121354 
120292 
119825 
119610 
119425 
119419 
119186 
119125 
117851 
117842 
117804 


340 
341 
342 
343 
344 
345 
346 
347 
348 
349 
350 
351 
352 
353 
354 
355 
356 
357 
358 
359 
360 
361 
362 
363 
364 
365 
366 
367 
368 
369 
370 
371 
372 
373 
374 
375 
376 
377 
378 
379 
380 
381 
382 
383 


health 
only 
speak 
result 
sure 
teacher 
others 
already 
history 
allow 
research 
office 
within 
spend 
read 
morning 
walk 
education 
person 
party 
change 
open 
win 
girl 

guy 
grow 
moment 
himself 
low 
maybe 
early 
force 
although 
food 
policy 
before 
boy 
process 
foot 
remember 
reason 
offer 
both 


toward 


117762 
117700 
117358 
116277 
116186 
116100 
115771 
115220 
114904 
114892 
114802 
114791 
114599 
114569 
114094 
114002 
113787 
113731 
113650 
112962 
112426 
111857 
111478 
110409 
110409 
110020 
109720 
109288 
108990 
108421 
108171 
108005 
107925 
107728 
107601 
107448 
107447 
107341 
107285 
106879 
106863 
106473 
106361 
105984 
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384 
385 
386 
387 
388 
389 
390 
391 
392 
393 
394 
395 
396 
397 
398 
399 
400 
401 
402 
403 
404 
405 
406 
407 
408 
409 
410 
411 
412 
413 
414 
415 
416 
417 
418 
419 
420 
421 
422 
423 
424 
425 
426 
427 


air 
enough 
across 
actually 
off 

love 
including 
second 
oh 
everything 
age 
yeah 
able 
music 
wait 
consider 
human 
buy 
appear 
market 
probably 
serve 
die 
experience 
home 
nation 
college 
stay 

fall 
build 
interest 
send 
use 
course 
cut 
sense 
plan 
someone 
expect 
effect 
behind 
death 
local 
kill 


105932 
105880 
105559 
105155 
104122 
103681 
103650 
103621 
103613 
103591 
103402 
103389 
103171 
102657 
102463 
101987 
101224 
101105 
100671 
100435 
99754 
99660 
98376 
98106 
97937 
97212 
97038 
96933 
96908 
96651 
96620 
96613 
96564 
96224 
96012 
95896 
95824 
95608 
95566 
95216 
95047 
93222 
92970 
92660 


428 suggest M 
429 reach M 
430 development n 
431 class n 
432 remain M 
433 six m 
434 economic j 
435 control n 
436 voice n 
437 require M 
438 former 
439 care n 
440 little r 
441 role n 
442 thank M 
443 report M 
444 else r 
445 sell M 
446 major j 
447 light n 
448 field n 
449 pull M 
450 rate n 
451 perhaps r 
452 raise M 
453 show n 
454 hard j 
455 effort n 
456 late j 
457 drug n 
458 pass v 
459 police n 
460 up i 
461 leader n 
462 themselves p 
463 military j 
464 possible j 

词类 标记 

a: 冠 词 / 形 容 词性 物 主 代词 

连词 

d: 限定 词 

e: 表 存 在 的 there 

i: 介词 


j: 形容 词 
m: 数 词 
n: 名 词 
p: 代词 


r: 副词 
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465 
466 
467 
468 
469 
470 
471 
472 
473 
474 
475 
476 
477 
478 
479 
480 
481 
482 
483 
484 
485 
486 
487 
488 
489 
490 
491 
492 
493 
494 
495 
496 
497 
498 
499 
500 


along i 


arm n 
sometimes r 
develop M 


relationship n 


heart n 
price n 
decide M 
better j 

according i 

whole j 

season n 
strong j 

wife n 
report n 
model n 
value n 
less r 
difference n 
mind n 
decision n 
free j 

finally r 
federal j 

return M 


international j 


hope M 
player n 
view n 
society n 
road n 
son n 
explain M 
tax n 
join M 
drive M 


84926 
84865 
84845 
84835 
84549 
84536 
84443 
84035 
83895 
83773 
83756 
83743 
83677 
83601 
83174 
82973 
82942 
82930 
82911 
82808 
82429 
82090 
81951 
81826 
81812 
81610 
81385 
81358 
81338 
81192 
80987 
80895 
80797 
80713 
80609 
80476 


t: 不 定式 标记 to 


u: 感叹 词 
V: 动词 


x: 否定 词 


not 和 n't 
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